Analyse lexicale

En informatique, l’analyse lexicale, lexing ou tokenization est la conversion d’une chaîne de caractères (un texte) en une liste de symboles (tokens en anglais). Elle fait partie de la première phase de la chaîne de compilation. Ces symboles sont ensuite consommés lors de l'analyse syntaxique. Un programme réalisant une analyse lexicale est appelé un analyseur lexical, tokenizer[1] ou lexer. Un analyseur lexical est généralement combiné à un analyseur syntaxique pour analyser la syntaxe d'un texte. Le tokenizer joue le rôle d'un découpeur de phrases (par exemple, la phrase « J'aime les pommes » sera découpée en plusieurs morceaux (ou tokens) : « J' », « aime », « les », « pommes ». Chaque mot devient un token qui sera utilisé par l'intelligence artificielle pour mieux comprendre et analyser le langage humain.

  1. « Anatomy of a Compiler and The Tokenizer », sur www.cs.man.ac.uk (consulté le ).

From Wikipedia, the free encyclopedia · View on Wikipedia

Developed by Nelliwinne